27.5 벤치마크와 평가의 새로운 지평 (New Horizons in Benchmarking) 27.5 벤치마크와 평가의 새로운 지평 (New Horizons in Benchmarking) 27.5.1 시뮬레이션 기반 평가(Simulation-based Evaluation): 정적 데이터셋 테스트를 넘어선 상호작용(Interactive) 평가 27.5.2 행동 수준의 벤치마크: Behavior-1K, Maniskill 등 최신 벤치마크 분석 27.5.3 안전성 및 견고성(Robustness) 테스트: 적대적(Adversarial) 시뮬레이션을 통한 실패 케이스 발굴